Контролируемый язык
Контроли́руемый язы́к (упрощённый естественный язык, англ. controlled natural language, CNL) — ограниченная версия естественного языка , созданная для выполнения определённых задач. Контролируемый язык — это подвид естественного языка, полученный ограничением в использовании грамматики , терминологии и речевых оборотов посредством регламентирующих правил с тем, чтобы снизить или искоренить его многозначность и сложность.
Традиционно, контролируемые языки подразделяются на две группы: в одной все усилия направлены на повышение удобочитаемости для человека (например, для тех, кому язык текста не родной); в другой эти меры направлены на создание языка, надежного в плане автоматического семантического анализа.
Первый тип языков (их также часто называют «упрощенные» или «технические» языки), например, ASD упрощенный технический английский (используется в программировании), простой Английский IBM, используются в индустрии для повышения качества технической документации и по возможности упростить (полу-)автоматический перевод документации. Эти языки ограничивают писателя общими правилами, такими как «писать короткими и грамматически простыми предложениями», «использовать существительные вместо местоимений», «использовать определяющие слова», «использовать активный залог вместо пассивного».
Второй тип языков имеет формальную логическую основу, следовательно у них формальные синтаксис и семантика, и они могут быть сопоставлены с существующим формальным языком, таким как логика первого порядка. Таким образом, их можно использовать в качестве языков репрезентации знаний, и написание на этих языках сопровождается полностью автоматической проверкой на целостность и избыточность, ответов на запросы и т. д.
Цели создания таких языков различны. Например, так называемый бейсик-инглиш , созданный в 1925 году английским лингвистом Чарльзом Огденом (англ. Charles Kay Ogden), был предназначен для ускоренного обучения английскому языку коренного населения многочисленных английских колоний. Специальные языки были построены на основе английского для унификации сообщений прогноза погоды, общения в воздушном пространстве или полицейских переговоров.
Наиболее широкое практическое применение имеют упрощённые технические языки , создаваемые для регламентирования лингвистической составляющей процесса создания технической документации.
В настоящее время представление о контролируемых языках приобрело особое значение в связи с развитием систем машинного перевода .
По функциональному применению некоторые контролируемые языки можно сопоставить с профессиональным жаргоном различных групп, однако жаргон и сленг отражают более живое развитие разговорной речи, не связывая себя формальными правилами.
Источник: Википедия
Связанные понятия
Пла́новый язы́к — международный искусственный социализованный язык, то есть язык, созданный для международного общения и применяемый на практике.
Синхронный автоматический перевод (Speech-to-Speech Real-Time Translation) — «моментальный» машинный перевод речи, с одного естественного языка на другой, с помощью специальных программных и технических средств. Так же называется направление научных исследований, связанных с построением подобных систем.
Си́мула -67 (Simula 67) — язык программирования общего назначения, разработанный в конце 60-х сотрудниками Норвежского Вычислительного Центра (Осло) Кристеном Нюгором и Оле-Йоханом Далем для моделирования сложных систем.
Язык программи́рования — формальный язык, предназначенный для записи компьютерных программ. Язык программирования определяет набор лексических, синтаксических и семантических правил, определяющих внешний вид программы и действия, которые выполнит исполнитель (обычно — ЭВМ) под её управлением.
Компью́терная лексикогра́фия — прикладная научная дисциплина в языкознании, которая изучает методы использования компьютерной техники для составления словарей. Это временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям.
Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.
Автоматизи́рованный перево́д (АП, англ. Computer-Aided Translation) — перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода (МП) он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.
Грамматика ван Вейнгаардена (также вВ-грамматика или В-грамматика) — это двухуровневая грамматика, которая предоставляет способ определения потенциально бесконечных грамматик через конечное число правил. Формализм был изобретён Адрианом ван Вейнгаарденом для определения некоторых синтаксических ограничений, которые ранее должны были формулироваться на естественных языках, несмотря на свою принципиально синтаксическую сущность. Типичными применениями являются обработка рода и числа в естественных...
Маши́нный перево́д — процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы. Так же называется направление научных исследований, связанных с построением подобных систем.
Теория «Смысл — текст» (название более точно записывается как «теория „Смысл ⇔ Текст“») — лингвистическая концепция, созданная И. А. Мельчуком и представляющая язык как многоуровневую модель преобразований смысла в текст и обратно (модель «Смысл ⇔ Текст»); отличительной особенностью этой теории является также использование синтаксиса зависимостей. Значительна роль, отводимая лексическому компоненту модели — Толково-комбинаторному словарю.
Машинный перевод на основе трансформации является разновидностью машинного перевода (MП). В настоящее время это один из наиболее распространённых методов машинного перевода. В отличие от более простой модели прямого MП, MП на основе трансформации разделяет процесс перевод на три этапа: анализ текста на исходном языке для определения его грамматической структуры, перевод результирующей структуры в структуру, подходящую для производства текста на языке перевода, и генерацию текста. Таким образом, системы...
Разрешение лексической многозначности (word sense disambiguation, WSD) — это неразрешенная проблема обработки естественного языка, которая заключается в задаче выбора значения (или смысла) многозначного слова или словосочетания в зависимости от контекста, в котором оно находится. Данная задача возникает в дискурсивном анализе, при оптимизации релевантности результатов поисковыми системами, при разрешении анафорических отсылок, в исследовании лингвистической когерентность текста, при анализе умозаключений...
Предметно-ориентированный язык (англ. domain-specific language, DSL — «язык, специфический для предметной области») — язык программирования, специализированный для конкретной области применения (в противоположность языку общего назначения, применимому к широкому спектру областей и не учитывающему особенности конкретных сфер знаний). Построение такого языка и/или его структура данных отражают специфику решаемых с его помощью задач. Является ключевым понятием языково-ориентированного программирования...
В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке.
Подробнее: Корпус текстов
Сте́мминг — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова.
Глобиш (англ. Globish) — версия английского языка, разработанная вице-президентом по международному маркетингу компании IBM Жаном-Полем Нерьером на основе стандартной английской грамматики и лексикона в 1500 английских слов. По оценкам самого Нерьера, глобиш «сам по себе не является языком», но служит средством коммуникации в международном бизнесе для людей, не являющихся носителями английского языка.
Типология порядка слов (в предложении) — один из методов типологической классификации языков, используемых в лингвистической типологии, основанный на понятии базового порядка составляющих: подлежащего (англ. subject), сказуемого (англ. verb) и прямого дополнения (англ. object). Термины «подлежащее» (англ. subject) и «прямое дополнение» (англ. object) в данном случае используются не строго, но для обозначения агентивного и пациентивного участников ситуации. Современное состояние типологии базового...
Расширенная сеть переходов (РСП) (калька с англ. Augmented transition network, или сокращенно — ATN) — технология грамматической и семантической обработки текстов предложенная американским лингвистом Вудсом. Расширенная сеть переходов представляет собой автомат, меняющий состояния при переходе от слова к слову в разбираемом предложении или тексте. Термин расширенная применительно к сетям переходов означает, что узлы сети наделены дополнительными условиями проверки, в которых могут содержаться различные...
Языково-ориентированное программирование (ЯОП) (англ. Language Oriented Programming), также Расходящаяся разработка (англ. middle out development), также метаязыковая абстракция, также Разработка, опирающаяся на предметно-специфичный язык (англ. DSL-Based Development) — парадигма программирования, заключающаяся в разбиении процесса разработки программного обеспечения на стадии разработки предметно-ориентированных языков (DSL) и описания собственно решения задачи с их использованием. Стадии могут...
Универсальная грамматика — термин, которым в ряде лингвистических теорий обозначается предполагаемый набор правил или принципов, присущих каждому человеческому языку. Подобные правила не определяют язык полностью: они допускают значительную вариантность, но ограничивают её некоторыми конечными рамками. В современной когнитивной науке универсальная грамматика понимается как встроенное на генетическом уровне знание о языке.
Языкова́я но́рма — исторически обусловленная совокупность общеупотребительных языковых средств, а также правила их отбора и использования, признаваемые обществом наиболее пригодными в конкретный исторический период. Норма является одним из существенных свойств языка, обеспечивающих его функционирование и историческую преемственность за счёт свойственной ей устойчивости, хотя и не исключающей вариантности языковых средств и заметной исторической изменчивости, поскольку норма призвана, с одной стороны...
Лисп (LISP, от англ. LISt Processing language — «язык обработки списков»; современное написание: Lisp) — семейство языков программирования, программы и данные в которых представляются системами линейных списков символов. Лисп был создан Джоном Маккарти для работ по искусственному интеллекту и до сих пор остаётся одним из основных инструментальных средств в данной области. Применяется он и как средство обычного промышленного программирования, от встроенных скриптов до веб-приложений массового использования...
Иску́сственные языки́ — специализированные языки, в которых лексика, фонетика и грамматика были специально разработаны для воплощения определённых целей. Именно целенаправленность отличает искусственные языки от естественных. Иногда данные языки называют ненастоящими языками. Таких языков существует уже более тысячи, и постоянно создаются новые.
Подробнее: Искусственный язык
Объе́ктно-ориенти́рованное программи́рование (ООП) — методология программирования, основанная на представлении программы в виде совокупности объектов, каждый из которых является экземпляром определённого класса, а классы образуют иерархию наследования.
Перевод медицинских текстов (медицинский перевод) — это перевод с одного языка на другой специализированных медицинских публикаций и текстов частного характера, содержание которых непосредственно связано со здоровьем человека. Особая позиция данной категории специализированных переводов определяется важностью любой переводимой информации, повышенным требованиям к точности перевода и соблюдению конфиденциальности частных сведений, а также ярко выраженной неоднородностью используемой терминологии...
Стандартный испанский язык (исп. Español estándar) является разновидностью испанского языка, которая признана образовательным стандартом органами-регуляторами языка (Королевской академией испанского языка и Ассоциацией академий испанского языка) и носит нормативный характер. Как и в любом стандартном языке, стандартизация может касаться определённых аспектов языка, особенно лексики и различных разделов грамматики (оставляя за рамками стандартизации различные аспекты просодии, прагматики и некоторые...
Параллельный текст (битекст) — текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» — это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста.
Системно-функциональная лингвистика (СФЛ) - это подход к лингвистике, рассматривающий язык как социальную семиотическую систему. Данный подход был разработан Майклом Халлидеем, который перенял понятие системы от своего учителя, Дж. Р. Ферса. В то время как Ферс считал, что системы ссылались на возможности, подчиненные структуре, Халлидей в некотором смысле «освободил» сферу выбора от структуры и сделал выбор основополагающим понятием своей теории. Другими словами, в то время как многие подходы к...
Минимали́стская програ́мма — лингвистическая теория, предложенная американским лингвистом Н. Хомским для объяснения тех языковых феноменов, механизмы которых не были прояснены полностью в рамках теории принципов и параметров. Сама Минималистская программа содержит ряд сильных утверждений, касающихся универсальной грамматики, а также некоторые гипотезы об устройстве когнитивной системы в связи с врождённой языковой способностью. Главным методологическим принципом Минималистской программы является...
Уче́бный язы́к программи́рования — язык программирования, предназначенный для обучения. В качестве таковых разрабатывались такие языки как BASIC и Паскаль. Из разработанного для обучения языка ABC вырос Python. Популярным языком, разработанным специально для образования является LOGO. Специально для российских школ разработана языковая среда КуМир. Набирает популярность созданный в Массачусетском технологическом институте язык визуального программирования Scratch и тому подобные среды программирования...
Машинный перевод на основе примеров (англ. Example-based machine translation, EBMT) — это метод машинного перевода, который часто характеризуется использованием двуязычного корпуса с параллельными текстами в качестве основной базы знаний во время выполнения перевода. По сути, это перевод по аналогии, который может рассматриваться как применение метода рассуждений на основе прецедентов к машинному обучению.
Интернет-лингвистика — подраздел лингвистики, который был сформулирован Дэвидом Кристалом. Этот подраздел науки занимается изучением новых форм употребления и использования языка, которые возникли под влиянием активного развития интернет-пространства и иных «новых» средств передачи информации, таких как текстовые сообщения. Начиная с момента появления науки, изучающей мотивацию человеческого поведения при работе с компьютерными системами (человеко-компьютерное взаимодействие, human-computer interaction...
Изучение языка в тандеме — метод изучения языка, основанный на формировании пары из носителей разных языков и последующем языковом обмене между ними. Как правило, оба носителя, также называемые тандем-партнерами, преподают друг другу свои родные языки. Подобная методика изучения иностранного языка активно используется как часть учебного процесса во многих языковых школах и ВУЗах.
А́да (Ada) — язык программирования, созданный в 1979—1980 годах в ходе проекта Министерством обороны США с целью разработать единый язык программирования для встроенных систем (то есть систем управления автоматизированными комплексами, функционирующими в реальном времени). Имелись в виду прежде всего бортовые системы управления военными объектами (кораблями, самолётами, танками, ракетами, снарядами и т. п.). Перед разработчиками не стояло задачи создать универсальный язык, поэтому решения, принятые...
Сетл (SETL) — язык программирования, ориентированный на работу со множествами, разработанный в конце 1960-х годов группой профессора Нью-йоркского университета Джекобом Шварцем. Наименование языка SETL — сокращение от SET Language (англ.), где SET переводится как «множество», то есть дословно «Язык множеств».
Русский жестовый язык (РЖЯ) — национальная лингвистическая система, обладающая собственной лексикой и грамматикой, используемая для общения глухих и слабослышащих, живущих в России, а также на территории СНГ (Украина, Белоруссия, Казахстан). Грамматика русского жестового языка сильно отличается от грамматики русского словесного языка: поскольку слова сложнее преобразовывать морфологически, то грамматика (например, порядок и образование слов) более строгая, чем в русском языке. Вероятно, принадлежит...
Петербургская типологическая школа — направление в российском языкознании, нацеленное на масштабное типологическое описание грамматических категорий глагола; сформировалась в Ленинграде в 1960—70 гг. и продолжает активно развиваться там же в начале XXI в. Основатель — А. А. Холодович; наиболее значительные представители — В. С. Храковский, В. П. Недялков, Н. А. Козинцева и др. Тесно сотрудничали с Петербургской типологической школой и принимали участие в ряде её проектов также Ю. С. Маслов, И. А...
Язык описания аппаратуры (HDL от англ. hardware description language) — специализированный компьютерный язык, используемый для описания структуры и поведения электронных схем, чаще всего цифровых логических схем.
Идиома программирования — устойчивый способ выражения некоторой составной конструкции в одном или нескольких языках программирования. Идиома является шаблоном решения задачи, записи алгоритма или структуры данных путём комбинирования встроенных элементов языка.
Корефере́нтность или референциональное тождество — отношение между именами — компонентами высказывания, в котором имена ссылаются на один и тот же объект (ситуацию) внеязыковой действительности (референт).
Ле́йпцигские пра́вила глосси́рования (англ. Leipzig glossing rules) — предложенный для унифицированного использования при представлении языковых примеров в лингвистических работах набор правил глоссирования (поморфемной нотации). Включает как собственно правила оформления интерлинеарных глосс, так и список рекомендуемых сокращений (грамматических помет, «ярлыков»), используемых для обозначения грамматических категорий.
Языкова́я спосо́бность — специфический психофизиологический механизм, формирующийся у носителя языка на основе нейрофизиологических предпосылок и под влиянием опыта речевого общения.
Язы́к — сложная знаковая система, естественно или искусственно созданная и соотносящая понятийное содержание и типовое звучание (написание).
Снобо́л — язык программирования высокого уровня, разработанный в 1962—1967 годах и предназначенный преимущественно для обработки текстовых данных.
Технический перевод — перевод, используемый для обмена специальной научно-технической информацией между людьми, говорящими на разных языках. При упрощенном подходе под техническим переводом понимают перевод технических текстов.
Семанти́ческая паути́на (англ. semantic web) — это общедоступная глобальная семантическая сеть, формируемая на базе Всемирной паутины путём стандартизации представления информации в виде, пригодном для машинной обработки.